智能论文笔记

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

Jamdani Motif Generation using Conditional GAN

MD Tanvir Rouf Shawon , Raihan Tanvir , Humaira Ferdous Shifa , Susmoy Kar , Mohammad Imrul Jubair

分类：计算机视觉

2022-12-22

Jamdani is the strikingly patterned textile heritage of Bangladesh. The exclusive geometric motifs woven on the fabric are the most attractive part of this craftsmanship having a remarkable influence on textile and fine art. In this paper, we have developed a technique based on the Generative Adversarial Network that can learn to generate entirely new Jamdani patterns from a collection of Jamdani motifs that we assembled, the newly formed motifs can mimic the appearance of the original designs. Users can input the skeleton of a desired pattern in terms of rough strokes and our system finalizes the input by generating the complete motif which follows the geometric structure of real Jamdani ones. To serve this purpose, we collected and preprocessed a dataset containing a large number of Jamdani motifs images from authentic sources via fieldwork and applied a state-of-the-art method called pix2pix to it. To the best of our knowledge, this dataset is currently the only available dataset of Jamdani motifs in digital format for computer vision research. Our experimental results of the pix2pix model on this dataset show satisfactory outputs of computer-generated images of Jamdani motifs and we believe that our work will open a new avenue for further research.

translated by 谷歌翻译

Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based Object Re-Identification

Syeda Nyma Ferdous , Xin Li , Siwei Lyu

分类：计算机视觉

2022-09-19

物体重新识别（REID）是生物识别和监视系统中最重要的问题之一，在过去几十年来通过图像处理和计算机视觉社区进行了广泛的研究。学习强大而判别的特征表示是对象REID的关键挑战。在REID中，基于无人机（UAV）的REID更具挑战性，因为图像的特征是飞行无人机的摄像机参数（例如，视角，海拔等）的连续变化。为了应对这一挑战，已经考虑了多尺度特征表示形式来表征来自不同海拔无人机飞行的图像。在这项工作中，我们提出了一种多任务学习方法，该方法采用新的多尺度体系结构，无卷积，金字塔视觉变压器（PVT），作为基于无人机的对象REID的骨干。通过对类内变化的不确定性建模，我们提出的模型可以使用不确定性感知对象ID和相机ID信息共同优化。实验结果报告了Prai和VRAI，这是两个REID数据集，从空中监视中验证我们提出的方法的有效性

translated by 谷歌翻译

BDSL 49: A Comprehensive Dataset of Bangla Sign Language

Ayman Hasib , Saqib Sizan Khan , Jannatul Ferdous Eva , Mst. Nipa Khatun , Ashraful Haque , Nishat Shahrin , Rashik Rahman , Hasan Murad , Md. Rajibul Islam , Molla Rashied Hussein

分类：计算机视觉

2022-08-14

语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是，每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语，称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集，由29,490张具有49个标签的图像组成。在数据收集期间，已经记录了14个不同成年人的图像，每个人都有不同的背景和外观。在准备过程中，已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习，计算机视觉和深度学习技术开发自动化系统。此外，该数据集使用了两个模型。第一个是用于检测，而第二个是用于识别。

translated by 谷歌翻译

Data transformation based optimized customer churn prediction model for the telecommunication industry

Joydeb Kumar Sana , Mohammad Zoynul Abedin , M. Sohel Rahman , M. Saifur Rahman

分类：机器学习

2022-01-11

数据转换（DT）是将原始数据转换为支持特定分类算法的形式的过程，并有助于分析特殊目的的数据。为了提高预测性能，我们调查了各种数据变换方法。本研究在电信行业（TCI）中的客户流失预测（CCP）背景下进行，客户疲劳是一种常见的现象。我们提出了一种与CCP问题的机器学习模型相结合的数据转换方法的新方法。我们在公开的TCI数据集中进行了实验，并在广泛使用的评估措施方面评估了性能（例如，AUC，精确，召回和F测量）。在这项研究中，我们提出了全面的比较来肯定转化方法的影响。比较结果和统计检验证明，大多数所提出的基于数据转换的优化模型显着提高了CCP的性能。总的来说，通过这份手稿介绍了电信行业的有效和优化的CCP模型。

translated by 谷歌翻译

Fake Hilsa Fish Detection Using Machine Vision

Mirajul Islam , Jannatul Ferdous Ani , Abdur Rahman , Zakia Zaman

分类：计算机视觉 | 人工智能

2022-01-08

希尔萨是孟加拉国的国家鱼。孟加拉国通过出口这条鱼赚了很多外币。不幸的是，最近几天，一些肆无忌惮的商人正在销售假的HILSA鱼类来获得利润。沙丁鱼和撒丁岛是市场上最销售的希尔萨。孟加拉国政府机构，即孟加拉国食品安全管理局表示，这些假希腊鱼类含有高水平的镉和铅，这对人类有害。在这项研究中，我们提出了一种可以容易地识别原始HILSA鱼和假HILSA鱼的方法。基于在线文学上的研究，我们是第一个识别原始HILSA鱼的研究。我们收集了超过16,000个原装和假冒Hilsa鱼的图像。要对这些图像进行分类，我们使用了几种基于深度学习的模型。然后，在它们之间比较了性能。在这些模型中，Densenet201实现了97.02％的最高精度。

translated by 谷歌翻译

Deep Learning Based Classification System For Recognizing Local Spinach

Mirajul Islam , Nushrat Jahan Ria , Jannatul Ferdous Ani , Abu Kaisar Mohammad Masum , Sheikh Abujar , Syed Akhter Hossain

分类：计算机视觉 | 机器学习

2022-01-06

深度学习模型通过从训练的数据集学习来提供图像处理的令人难以置信的结果。菠菜是一种含有维生素和营养素的叶蔬菜。在我们的研究中，已经使用了一种可以自动识别菠菜的深度学习方法，并且该方法具有总共五种菠菜的数据集，其中包含3785个图像。四种卷积神经网络（CNN）模型用于对我们的菠菜进行分类。这些模型为图像分类提供更准确的结果。在应用这些模型之前，存在一些预处理图像数据。为了预处理数据，需要发生一些方法。那些是RGB转换，过滤，调整大小和重新划分和分类。应用这些方法后，图像数据被预处理并准备好在分类器算法中使用。这些分类器的准确性在98.68％至99.79％之间。在这些模型中，VGG16实现了99.79％的最高精度。

translated by 谷歌翻译

Lung-Originated Tumor Segmentation from Computed Tomography Scan (LOTUS) Benchmark

Parnian Afshar , Arash Mohammadi , Konstantinos N. Plataniotis , Keyvan Farahani , Justin Kirby , Anastasia Oikonomou , Amir Asif , Leonard Wee , Andre Dekker , Xin Wu

分类：计算机视觉 | 机器学习

2022-01-03

肺癌是最致命的癌症之一，部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割，须遵守观察者间变异性，并且考虑到专家只能提供注释的事实，也是耗时的。最近展示了有前途的结果，自动和半自动肿瘤分割方法。然而，随着不同的研究人员使用各种数据集和性能指标验证了其算法，可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理（VIP）杯竞赛创建的计算机断层摄影扫描（LOTUS）基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标，因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与，以获得竞争数据。在注册阶段，有129名成员组成了来自10个国家的28个团队，其中9个团队将其达到最后阶段，6队成功完成了所有必要的任务。简而言之，竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明，有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战，以及所提出的算法和结果。

translated by 谷歌翻译

Segmentation of Lung Tumor from CT Images using Deep Supervision

Farhanaz Farheen , Md. Salman Shamil , Nabil Ibtehaz , M. Sohel Rahman

分类：计算机视觉

2021-11-17

肺癌是世界大多数国家的死亡原因。由于提示肿瘤的诊断可以允许肿瘤学家辨别他们的性质，类型和治疗方式，CT扫描图像的肿瘤检测和分割是全球的关键研究领域。本文通过在Lotus DataSet上应用二维离散小波变换（DWT）来接近肺肿瘤分割，以进行更细致的纹理分析，同时将来自相邻CT切片的信息集成到馈送到深度监督的多路仓模型之前。在训练网络的同时，学习速率，衰减和优化算法的变化导致了不同的骰子共同效率，其详细统计数据已经包含在本文中。我们还讨论了此数据集中的挑战以及我们选择如何克服它们。本质上，本研究旨在通过试验多个适当的网络来最大化从二维CT扫描切片预测肿瘤区域的成功率，导致骰子共同效率为0.8472。

translated by 谷歌翻译

A Shallow U-Net Architecture for Reliably Predicting Blood Pressure (BP) from Photoplethysmogram (PPG) and Electrocardiogram (ECG) Signals

Sakib Mahmud , Nabil Ibtehaz , Amith Khandakar , Anas Tahir , Tawsifur Rahman , Khandaker Reajul Islam , Md Shafayet Hossain , M. Sohel Rahman , Mohammad Tariqul Islam , Muhammad E. H. Chowdhury

分类：机器学习

2021-11-12

心血管疾病是世界各地最常见的死亡原因。为了检测和治疗心脏相关的疾病，需要连续血压（BP）监测以及许多其他参数。为此目的开发了几种侵入性和非侵入性方法。用于持续监测BP的医院中使用的大多数现有方法是侵入性的。相反，基于袖带的BP监测方法，可以预测收缩压（SBP）和舒张压（DBP），不能用于连续监测。几项研究试图从非侵入性可收集信号（例如光学肌谱（PPG）和心电图（ECG））预测BP，其可用于连续监测。在这项研究中，我们探讨了自动化器在PPG和ECG信号中预测BP的适用性。在12,000岁的MIMIC-II数据集中进行了调查，发现了一个非常浅的一维AutoEncoder可以提取相关功能，以预测与最先进的SBP和DBP在非常大的数据集上的性能。从模拟-II数据集的一部分的独立测试分别为SBP和DBP提供了2.333和0.713的MAE。在40个主题的外部数据集上，模型在MIMIC-II数据集上培训，分别为SBP和DBP提供2.728和1.166的MAE。对于这种情况来说，结果达到了英国高血压协会（BHS）A级并超越了目前文学的研究。

translated by 谷歌翻译